Pipeline

В методологии dataCraft Core под пайплайном понимается набор таблиц с одинаковым обязательным набором полей, который проходит одинаковую последовательность шагов по обработке данных (см. dbt Package), одинаковым образом материализуются.

Условно разделяем все данные на 4 вида пайплайнов:

  1. events - данные по пользовательским событиям, содержат обязательно datetime и id пользователей или событий.
  2. datestat - данные, где есть любая агрегированная статистика; обязательное поле - дата.
  3. periodstat - данные, которые хранятся по периодам; обязательные поля - дата начала периода и дата конца.
  4. registry - к этому типу относятся различные справочники; обязательные поля - ключ и значение. Для этого типа выделяем два подтипа:
    • глобальные registry - те, которые содержат какую-то универсальную информацию, например, краткие и полные названия городов, и могут быть добавлены ко всем источника на шаге full;
    • технические registry - те, которые относятся к конкретным источникам данных. Появление технических registry обусловлено особенностью выгрузки данных из некоторых источников: данные разбиваются на несколько стримов. В таком случае объединение в единую таблицу происходит на слое join.

Название пайплайна, к которому относятся данные, необходимо указывать в имени файла модели по обработки данных на определённых шагах.